摘要。近年来,基础模型席卷了计算机视野领域,从而促进了不同方式内各种任务的进步。但是,有效设计红外地基模型仍然是一个悬而未决的问题。在本文中,我们引入了Infmae,这是专门针对红外模式量身定制的基本模型。最初,我们提出了INF30,这是一种红外数据集,用于减轻红外愿景社区中自我监督学习的大规模数据的稀缺性。此外,考虑到红外图像的内在特征,我们设计了一种信息感知的掩盖策略。它允许在自我监督的学习过程中更加重视红外图像中更丰富信息的区域,这有利于学习强有力的表示。此外,为了增强下游任务中的通用能力,我们采用了多规模编码器来进行潜在表示学习。最后,我们开发了一个红外编码器来重建图像。广泛的实验表明,我们所提出的方法在三个关键的下游任务中,我们所提出的方法优于其他受监督和自学的学习方法:红外图像语义分段,对象检测和小目标检测。
主要关键词
![arxiv:2402.00407v2 [CS.CV] 14 Sep 2024PDF文件第1页](/bimg/3/3d5db4a626a95098b76acee7729eed8c364aaf9a.webp)
![arxiv:2402.00407v2 [CS.CV] 14 Sep 2024PDF文件第2页](/bimg/b/b7e03412685544da487d21d639e18d4596af6a68.webp)
![arxiv:2402.00407v2 [CS.CV] 14 Sep 2024PDF文件第3页](/bimg/c/cd6fb8737e3128882170488e322ed1e7a8c64cd2.webp)
![arxiv:2402.00407v2 [CS.CV] 14 Sep 2024PDF文件第4页](/bimg/b/b6134e3ac0851b1b16fc774fea15fa6f1cdd0b45.webp)
![arxiv:2402.00407v2 [CS.CV] 14 Sep 2024PDF文件第5页](/bimg/6/6dfe5e3ec134e86802a9ad712d0cd71fc54c8ca8.webp)
